AWS Glueは金食い虫
Glueは内部でSparkが動いている
「Data分析で必要な分のRAM」を用意する必要がある
GlueでのETL処理は「Sparkに合わせた形」で記載する必要がある
Scala、Pysparkを用いてGlueのETL処理(= Glue Job)を作成する
「Glueは本体がSpark」という話にまつわることはGlueの稼働時間(cost)を削減するを参照ください
Glueは「DPU」という単位でComputing Resourceを用意する
料金 - AWS Glue | AWS
1 個の DPU (Data Processing Unit) では 4 つの vCPU と 16 GB のメモリが提供されます。
内部ではSparkが動くため「メモリ(=RAM)」の大きさが死活問題
Pysparkで記述された「1工程」で必要なDataは全て「一度RAMに乗せる」必要がある
coding時に「この一行(=処理)はどれほどの規模のDataを対象に行うか」を考える必要がある